TP 2 : Estimation (suite)

Auteur·rice

Affiliation

Paul Géhin

Insee

Date de publication

13 mars 2026

Exercice 1 : Sondage sur les communes

Un statisticien a réalisé un sondage auprès d’un échantillon de \(n\) communes : le tirage a été réalisé à l’aide d’un tirage poissonien. Les probabilités d’inclusion d’ordre 1 ont été définies à l’aide de la taille des ménages : 0.9 si la commune dispose de plus de 100 000 ménages et 0.1 sinon. Les résultats sont décrits dans la table donnees_ech.csv.

Cette table est constituée des variables suivantes :

Nom de la variable	Description de la variable
`code`	Code géographique de la commune
`lib`	Nom de la commune
`nb_ul`	Nombre d’unités légales
`nb_appart`	Nombre d’appartements dans la commune
`nb_log`	Nombre de logements dans la commune
`nb_men`	Nombre de ménages dans la commune
`nb_fam_mono`	Nombre de familles monoparentales dans la commune
`nb_fam`	Nombre de familles
`prob`	Probabilité d’inclusion d’ordre 1

Donnez la population \(\mathcal{U}\).
Donnez la taille de l’échantillon.
Proposez un estimateur sans biais du total de n’importe quelle variable d’intérêt. Justifiez.
Proposez une estimation du :
- nombre de logements en France,
- part d’appartement par département,
- part de familles monoparentales,
- nombre de communes avec au moins 100 unités légales,
- nombre de communes en France,
- nombre de communes dans le Nord.

Exercice 2 : Visualisation du biais de l’estimateur d’Horvitz-Thompson

Dans cet exercice, on considère deux populations de \(N = 10 000\) individus. Dans chaque population, une probabilité d’inclusion d’ordre 1 est associée à chaque individu : des échantillons vont être tirés à l’aide d’un plan poissonien. Le but est d’estimer le total d’une variable d’intérêt \(y\). Les bases de sondage sont décrites dans les tables pop1.csv et pop2.csv. (Remarque : le but de cet exercice est d’illustrer l’existence d’un biais pour l’estimateur d’Horvitz-Thompson - on suppose ici disposer de la variable d’intérêt sur toute la population, ce qui n’est pas le cas en pratique).

Est-ce possible de proposer, dans les deux cas, un estimateur sans biais du total de la variable \(y\) ?
On souhaite estimer le biais (éventuel) de l’estimateur proposé à la question précédente par simulation : l’idée étant de faire comme si on pouvait tirer un très grand nombre d’échantillons. Proposez une fonction simulation qui prend en argument une data.frame population (composée de deux variables y et pi) et un nombre de simulations N_sim et qui renvoie un vecteur de taille N_sim qui contient l’estimation du total obtenu en tirant un échantillon selon le plan poissonien associé aux probabilités d’inclusion pi. La fonction suivante permet de tirer selon un plan poissonien :

tirage_poisson <- function(pi){
  if(any(pi > 1 | pi < 0)){
    stop("pi doit appartenir à [0,1]")
  }
  sapply(X = pi, FUN = function(p){rbinom(1,1,p)})
}

Réalisez \(1000\) tirages à l’aide de la fonction simulation pour les deux populations (et plans de sondage). Comparez aux totaux.